通用網絡爬蟲的實現原理是什么

回答數量: 1

風險管理（專業級）RM/PL 高級信息系統項目管理師

通用網絡爬蟲的實現原理：

獲取初始的URL。初始的URL地址可以人為地指定，也可以由用戶指定的某個或某幾個初始爬取網頁決定。
根據初始的URL爬取頁面并獲得新的URL。獲得初始的URL地址之后，先爬取當前URL地址中的網頁信息，然后解析網頁信息內容，將網頁存儲到原始數據庫中，并且在當前獲得的網頁信息里發現新的URL地址，存放于一個URL隊列里面。
將新的URL放到URL隊列中，獲取下一個新的URL地址之后，會將新的URL地址放到URL隊列中。
從URL隊列中讀取新的URL，從而獲得新的網頁信息，同時在新網頁中獲取新URL，并重復上述的爬取過程。
滿足爬蟲系統設置的停止條件時，停止爬取。在編寫爬蟲的時候，一般會設置相應的停止條件，爬蟲則會在停止條件滿足時停止爬取。如果沒有設置停止條件，爬蟲就會一直爬取下去，一直到無法獲取新的URL地址為止。

通用網絡爬蟲的特點有：

回答所涉及的環境：聯想天逸510S、Windows 10。

11個月前 / 評論